Cross-Validation এবং Grid Search

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Model Evaluation এবং Tuning

203

Cross-Validation এবং Grid Search দুটি অত্যন্ত গুরুত্বপূর্ণ এবং শক্তিশালী কৌশল যা মেশিন লার্নিং মডেল তৈরির সময় model evaluation এবং hyperparameter tuning করতে ব্যবহৃত হয়। এগুলি মডেলের নির্ভুলতা এবং কার্যকারিতা বাড়ানোর জন্য ব্যবহৃত হয়।

১. Cross-Validation

Cross-validation একটি কৌশল যা মডেলের সাধারণীকরণ ক্ষমতা পরীক্ষা করে, বা কিভাবে একটি মডেল নতুন, অজানা ডেটা নিয়ে কাজ করবে। সাধারণভাবে, মডেল তৈরি করার সময় training set এবং test set দুটি আলাদা ডেটাসেট ব্যবহার করা হয়। Cross-validation-এ, ডেটাকে ছোট ছোট অংশে ভাগ করা হয়, এবং প্রতিটি অংশে মডেলটি ট্রেনিং এবং টেস্টিং করা হয়।

k-fold Cross-Validation:

k-fold Cross-Validation একটি জনপ্রিয় পদ্ধতি যেখানে ডেটাসেটকে kটি সমান ভাগে ভাগ করা হয়। এর পরে, প্রতিটি ভাগ একবার টেস্ট সেট হিসেবে এবং বাকি ভাগগুলি ট্রেনিং সেট হিসেবে ব্যবহৃত হয়। এই প্রক্রিয়া k বার পুনরাবৃত্তি হয়, এবং শেষে, প্রতিটি পরীক্ষার ফলাফলকে গড়ে নিয়ে মডেলের চূড়ান্ত কর্মক্ষমতা নির্ধারণ করা হয়।

k-fold Cross-Validation এর ধাপ:

ডেটাসেটকে k অংশে ভাগ করা হয়।
প্রতিটি অংশে একবার করে মডেল পরীক্ষা করা হয়।
প্রতিটি পরীক্ষার পরে, cross-validation score হিসাব করা হয়।
সব ফলাফল নিয়ে একটি গড় স্কোর পাওয়া যায়।

উদাহরণ:

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.svm import SVC

# Iris dataset লোড
data = load_iris()
X = data.data
y = data.target

# SVM মডেল তৈরি
model = SVC(kernel='linear')

# 5-fold cross-validation
cv_scores = cross_val_score(model, X, y, cv=5)

# গড় স্কোর প্রদর্শন
print(f"Cross-validation scores: {cv_scores}")
print(f"Mean accuracy: {cv_scores.mean()}")

আউটপুট:

Cross-validation scores: [0.96666667 0.96666667 0.96666667 1.         1.        ]
Mean accuracy: 0.9866666666666667

এখানে, cross_val_score ফাংশন 5-fold cross-validation ব্যবহার করে SVM মডেলটি যাচাই করেছে এবং তার গড় সঠিকতা বের করেছে।

২. Grid Search

Grid Search হল একটি কৌশল যা মডেলের hyperparameters (যেমন, learning rate, kernel type, number of trees, etc.) খোঁজার জন্য ব্যবহৃত হয়। এর মাধ্যমে বিভিন্ন hyperparameter এর সম্ভাব্য মানের সমন্বয় পরীক্ষিত হয়, এবং সবচেয়ে ভালো পারফর্ম করা কম্বিনেশন নির্বাচন করা হয়।

Grid Search এর কাজ:

একটি প্যারামিটার গ্রিড তৈরি করা হয়, যেখানে প্রতিটি প্যারামিটার এবং তার সম্ভাব্য মান থাকে।
Grid search প্রতিটি প্যারামিটার কম্বিনেশন পরীক্ষা করে এবং যার সর্বোচ্চ পারফরম্যান্স পাওয়া যায়, সেটি নির্বাচন করে।

উদাহরণ:

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris

# Iris dataset লোড
data = load_iris()
X = data.data
y = data.target

# SVM মডেল তৈরি
model = SVC()

# Hyperparameter grid
param_grid = {
    'kernel': ['linear', 'poly', 'rbf'],
    'C': [0.1, 1, 10]
}

# GridSearchCV ব্যবহার করে হাইপারপ্যারামিটার টিউনিং
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)

# মডেল ফিট করা
grid_search.fit(X, y)

# সেরা প্যারামিটার এবং সঠিকতা
print(f"Best parameters: {grid_search.best_params_}")
print(f"Best cross-validation score: {grid_search.best_score_}")

আউটপুট:

Best parameters: {'C': 10, 'kernel': 'rbf'}
Best cross-validation score: 0.9666666666666667

এখানে, GridSearchCV ফাংশন kernel এবং C এর জন্য একটি গ্রিড তৈরি করে এবং 5-fold cross-validation ব্যবহার করে প্রতিটি কম্বিনেশন পরীক্ষা করে, এরপর সেরা প্যারামিটার এবং তার স্কোর প্রদান করে।